本文介绍了预测关系提取的文本文档的覆盖范围的新任务(重新):该文件是否包含给定实体的许多关系元组?覆盖预测可用于选择具有大型输入基层的知识库建设的最佳文档。为研究这个问题,我们为520个实体提供了31,366个不同文件的数据集。我们分析了文档覆盖的相关性与长度,实体提及频率,alexa等级,语言复杂性和信息检索分数的特征相关。这些特征中的每一个都只有适度的预测力量。我们采用方法将具有统计模型的功能相结合,如TF-IDF和BERT语言模型。该模型结合特性和BERT,HERB,实现了F1得分高达46%。我们展示了两种用例的覆盖预测的效用:KB建设和索赔驳斥。
translated by 谷歌翻译